Weight Decay
- 是 weight decay 的系数 ,减少参数的值,调节模型复杂度对损失函数的影响
SGD 中权重衰减相当于加入一个 L2 regularization (对损失函数求导,然后化简)
- [[L2 Regularization]] 的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题
为什么能避免模型过拟合问题?
- 过拟合模型的系数往往非常大,因为过拟合就是需要顾忌每一个点,最终形成的拟合函数波动很大,这意味着在某些小区间里的导数值非常大,也就是系数很大,通过正则化约束参数的范围使其不要太大,可以在一定程度上减少过拟合情况。